估计数据集的难度通常涉及将最新模型与人类进行比较;性能差距越大,据说数据集就越难。但是,这种比较几乎没有理解给定分布中的每个实例的难度,或者什么属性使给定模型的数据集难以进行。为了解决这些问题,我们将数据集难度框架 - W.R.T.模型$ \ MATHCAL {V} $ - 由于缺乏$ \ Mathcal {V} $ - $ \ textit {usable Information} $(Xu等,2019),其中较低的值表示更困难的数据集用于$ \ mathcal {v} $。我们进一步介绍了$ \ textit {pointSise $ \ mathcal {v} $ - 信息} $(pvi),以测量单个实例的难度W.R.T.给定的分布。虽然标准评估指标通常仅比较同一数据集的不同模型,但$ \ MATHCAL {V} $ - $ \ textit {usable Information} $ and PVI也允许相反:对于给定的模型$ \ Mathcal {v} $,我们,我们,我们可以比较同一数据集的不同数据集以及不同的实例/切片。此外,我们的框架可以通过输入的转换来解释不同的输入属性,我们用来在广泛使用的NLP基准中发现注释人工制品。
translated by 谷歌翻译